iT邦幫忙

2023 iThome 鐵人賽

DAY 1
0
AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列 第 1

DAY01 - 語音辨識現況及MetaAI的突破

  • 分享至 

  • xImage
  •  

當前的MT(Machine Translation, 機器翻譯)模型多著墨於T2TT(Text-to-Text Translation),如NO Language Left Behind(NLLB)團隊所開發的T2TT模型涵蓋約200種語言,然而目前的S2ST(Speech-to-Speech Translation)所能涵蓋的語言數量難以達到此規模,此現象發生的原因主要有兩個:1) 相較於文本數據,可用的語音數據很稀少,2) 模型的侷限性。

S2ST(Speech-to-Speech Translation)發展障礙

歸納當前S2ST系統有三個發展障礙:

  1. 可用的數據集大多是廣泛使用的語言,如英語、西班牙語、法文等;
  2. 大部分的翻譯都是他種語言轉譯為英語,鮮少從英語轉譯為他種語言;
  3. 當前的S2ST系統多為串接系統並非直接語音轉語音,像是從ASR(Automatic Speech Recognition)串接T2TT,然後再串接TTS(Text-to-Speech),如此串接三個子系統的S2ST有其缺點,在ASR段非英語(尤其資源少的語言)的轉譯效果很差,且三個子系統本身都會有誤差,彼此的誤差加成將影響最終轉譯結果,最後若三個子系統的訓練來源不同,數據不匹配造成訓練內容或是參數維度不同,都會使系統轉譯率下降。

MetaAI推出最新的轉譯系統

MetaAI的新模型SeamlessM4T(Massively Multilingual & Multimodal Machine Translation)宣稱可以弭平這些障礙,SeamlessM4T是一個支援ASR、T2TT、S2TT(Speech-to-Text translation)、T2ST(Text-to-Speech translation)以及S2ST的統整系統。同時支援多國語言,它的S2ST模型可成功將100種語音轉譯成英語語音,將英語語音轉譯成35種語音;S2TT模型可成功將100種語言語音轉譯成英語文字,將英語語音轉譯為95種語言文字;ASR則能夠辨識96種語言;T2ST則可將95種語言文字轉譯為英語語音,將英語文字轉譯為35種語言語音;最後是T2TT可以將英語及另外95種語言做文字互譯。
https://ithelp.ithome.com.tw/upload/images/20230916/20162910cDootY3EHS.jpg
*上圖取自MetaAI官網 https://ai.meta.com/blog/seamless-m4t/

結論

在功能強大的SeamlessM4T的促使下,好奇它的ASR、T2TT、S2TT、T2ST及S2ST五種模型的架構及應用,故將陸續研究其架構及程式碼並結合應用,作為深入語音辨識的基石。


下一篇
DAY02 - SeamlessM4T 模型工作流程
系列文
利用SeamlessM4T學習語音辨識架構及應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言